DecisionTreeRegressor参数详解 您所在的位置:网站首页 决策树 参数 DecisionTreeRegressor参数详解

DecisionTreeRegressor参数详解

2024-03-29 21:27| 来源: 网络整理| 查看: 265

criterion {“squared_error”, “friedman_mse”, “absolute_error”, “poisson”}, default=”squared_error”

衡量分割质量的函数。支持的标准有:

"squared_error "为平均平方误差,相当于方差减少作为特征选择标准,使用每个终端节点的平均值使L2损失最小;“friedman_mse”,使用平均平方误差与Friedman改进得分来寻找潜在的分裂;"absolute_error "为平均绝对误差,使用每个终端节点的中位数使L1损失最小;“poisson”,使用减少泊松偏差来寻找分裂。

splitter {“best”, “random”}, default=”best”

用来选择每个节点的分割的策略。支持的策略是 "best "以选择最佳分割,"random "以选择最佳随机分割。

max_depth int, default=None

树的最大深度。如果没有,那么节点将被展开,直到所有的叶子都是纯的,或者直到所有的叶子包含的样本少于min_samples_split。

min_samples_split int or float, default=2

分割一个内部节点所需的最小样本数。

如果是int,那么考虑min_samples_split作为最小数量。如果是float,那么min_samples_split是一个分数,ceil(min_samples_split * n_samples)是每次分割的最小样本数。

min_samples_leaf int or float, default=1

一个叶子节点所需的最小样本数。任何深度的分裂点只有在左右两个分支中至少留下min_samples_leaf训练样本时才会被考虑。这可能会产生平滑模型的效果,特别是在回归中。

如果是int,那么考虑min_samples_leaf作为最小的数字。如果是float,那么min_samples_leaf是一个分数,ceil(min_samples_leaf * n_samples)是每个节点的最小样本数。 0.18版中的修改:为分数增加了浮动值。

min_weight_fraction_leaf float, default=0.0

在一个叶子节点上所需的权重总和(所有输入样本)的最小加权部分。不提供sample_weight时,样本的权重相等。

max_features int, float or {“auto”, “sqrt”, “log2”}, default=None

寻找最佳分割时要考虑的特征数量。

如果是int,那么在每次分割时考虑max_features特征。如果是float,那么max_features是一个分数,每次分割时考虑max(1, int(max_features * n_features_in_))特征。如果是 “auto”,那么max_features=n_features。如果是 “sqrt”,那么 max_features=sqrt(n_features)。如果 “log2”,那么max_features=log2(n_features)。如果没有,那么max_features=n_features 。从1.1版本开始废弃:"auto"选项在1.1版本中已经废弃,将在1.3版本中删除。 注意:在找到节点样本的至少一个有效分区之前,搜索分割不会停止,即使需要有效地检查超过max_features的特征。

random_state int, RandomState instance or None, default=None

控制估计器的随机性。即使splitter被设置为"best",特征在每次分割时都会被随机地排列。当max_features < n_features ,时,算法会在每次分割时随机选择max_features,然后在其中找到最佳分割。但是,即使max_features=n_features,在不同的运行中找到的最佳分割也可能不同。这种情况下,如果标准的改进对几个分割是相同的,并且必须随机选择一个分割。为了在拟合过程中获得确定的行为,random_state必须被固定为一个整数。

max_leaf_nodes int, default=None

以最佳优先的方式生长一棵具有max_leaf_nodes的树。最佳节点(Best nodes)被定义为相对减少的杂质。如果没有,则叶子节点的数量不限。

min_impurity_decrease float, default=0.0

如果某个节点分裂引起的杂质(impurity)减少大于或等于这个值,那么该节点将被分裂。

加权的杂质减少方程式(impurity decrease equation)如下:

N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

其中N是样本总数,N_t是当前节点的样本数,N_t_L是左子的样本数,N_t_R是右子的样本数。

N、N_t、N_t_R和N_t_L都是指加权的总和,如果sample_weight被传递的话。

ccp_alpha non-negative float, default=0.0

用于最小成本-复杂度修剪的复杂度参数。将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下,不进行修剪。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有